Перейти к основному содержимому

070 Устранение сбоев

Слайды на отдельной странице

О чем лекция
  • коммуникация во время устранения сбоев
    • воррумы
      • как координировать сбои
    • эскалация и информирование
      • система управления инцидентами (важно, чтобы одна на всю компанию)
    • Роли при устранении: коммандор, коммуникатор
  • рекоммендации про мониторинг нужный во время сбоев
    • исходящие RED метрики
    • USE метрики

TODO: каскадные сбои

При информировании о сбоях все на стресе. Поэтому надо выработать привычку изъясняться просто, коротко и предельно конкретно. Следует избегать слов "проблема в Х", "некорректно работает система Х", потому что они очень неконкретны. Что значит "проблема"? Это может быть что угодно, от полной неработоспособности, до возвращения некорректных результатов.

TODO(m.kaleturina):

  • Написать, что писать "а у нас" нехорошо (у кого у нас?)
  • Графики без подписей

TODO(d.maslennikov):